iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 3
0
Data Technology

Data Science 到底是什麼 - 從一個完全外行角度來看系列 第 3

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big?

  • 分享至 

  • xImage
  •  

image
圖片來源:https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([02]Data Science 是什麼?)了解了整個Data Science包含的內容,這篇將會看看源頭,Data本身。

這篇先了解到什麼是Big Data?有什麼特性?到底是有多Big?

同步發表於我的部落格:http://blog.alantsai.net/2017/12/data-science-series-03-big-data-intro.html (部落格的格式會漂亮一些,ithome不支援html好不方便)

什麼是Big Data

目前階段在介紹整個Data Scientist日常的中心,Big Data

image
Big Data的處理
Big Data 在台灣翻譯成為 巨量資料,但是因為中國那邊反而實際用的比較多,因此大數據反而是比較耳熟能詳的詞。

Big Data其實是個相對詞,對於我們來說是「Big」Data,可能兩年後只是幾天的量而已,事實上,從數據產生出到2003年的資料綜合 = 我們2天的產生量而已;

IDC更研究指出,現今90%的資料,都是這2年產生出來。

這個資料量非常的恐怖,更別說我們還沒完全進入全IoT(Internet Of Things 物聯網)時代,如果到了那個時候估計光每一秒說不定都是現在1天的綜合(這個是個人亂猜,不過估計不久將來應該很快會發生)。

所以Big Data是一個相對詞,不過當描述Big Data的時候,一般來說會有3個特性,因為都是英文字母V開頭,因此也稱為3V:

Volume
Velocity
Variety
Big Data - What is Big Data - 3 Vs of Big Data - Volume, Velocity and Variety - Day 2 of 21 3vs
3V的含義,資料來源:https://blog.sqlauthority.com/2013/10/02/big-data-what-is-big-data-3-vs-of-big-data-volume-velocity-and-variety-day-2-of-21/

3V 之 Volume - 量

Big Data的其中一個特性就是量很大,因此3V裡面的Volume指的就是產生的量。

既然提到量,那麼就要提到儲存量的單位:

image
換句話說,1 ZB = 10^21 Byte。來源:https://en.wikipedia.org/wiki/Zettabyte
了解了單位,來看看每天產生的量:

image
可以看到光2002年的每秒產量就和1992年的每天一樣,來源:http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
這個量非常恐怖,那麼,如果我們說Big Data到底在說什麼等級呢?

基本上,當國外在說Big Data分析的時候,一般來說講的都是PB等級。

大家可以想象一下,要能夠儲存PB並且做運算的電腦要多高級?

3V 之 Velocity - 增長速度

Velocity指的是量的增長速度。從本來批次的增加,到最後的及時增加。

image
可以看到,每分鐘會有72小時影片上傳到Youtube:來源:http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
當IoT完全進入的時候,資料增長一定會是Real Time。

3V 只 Variety - 資料的多元性

資料不再是像關聯性資料庫這種結構性資料(Structure Data),其他非結構性(Unstructure Data)資料 - 例如影片,相片等等。

這種不同類型的資料讓處理起來也變得更加複雜。

Big Data帶來的挑戰

可以看到,Big Data不僅代表資料量很大,增長速度很快並且資料結構非常多元,那這些資料到底如何儲存和運算呢?

把硬體一直加大(Scale Up)所損耗的錢是倍數成長,因此更好的情況是平行擴展(Scale out)的方式。因此Hadoop的誕生讓一切變得有可能。

Hadoop做到讓一般性電腦能夠透過連在一起的方式達到儲存大量資料,並且平行運算。舉例來說,如果我要儲存1TB的資料,但是我沒有TB硬碟,那麼可以透過2個500GB的硬碟把那1TB的資料儲存在Hadoop的HDFS。

因此Hadoop把處理Big Data變得可行。

結語

在這篇介紹了Big Data的基本特性,和所謂的3V。

了解了Big Data的狀況之後,會發現到面臨的挑戰是,要儲存和計算這麼大量的資料靠一台超級電腦根本不可能,因此Hadoop的誕生導致了使用Big Data變得可能。

在下一篇,將會介紹讓Big Data處理變得可能,Hadoop。


工商服務

小小介紹我們團隊成員

今年的團隊機制不知不覺就集合了10位隊(坑)友 - 大家幫忙多多關注別不小心我們就gg了 XD

** 一群技術愛好者與一名物理治療師的故事 提醒著我們 千萬不要放棄治療 **

小小的自我介紹

沉浸於.Net世界的後端工程師,樂於分享,現任台中Study4成員之一。除了程式以外,就愛看小說。

歡迎有任何問題或者建議都可以告訴我,可以再以下找到我:

部落格:Alan Tsai的學習筆記
我的Linkedin
我的粉絲頁
我的github
我的Slideshare
我的Twitter


上一篇
[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼?
下一篇
[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼?
系列文
Data Science 到底是什麼 - 從一個完全外行角度來看30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言